任务共有7个状态:提交中、提交失败、等待、运行中、成功、失败、停止。
参数 | 说明 |
---|---|
提交中 | 运行任务即进入该状态 |
提交失败 | 提交的过程会对代码使用git进行版本控制,可能因代码文件太大 或git冲突而失败,具体应对方法在常见问题中讨论 |
等待 | 任务提交后等待集群分配计算资源 |
运行中 | 分配到计算资源,开始执行 |
成功 | 任务运行完成且无差错(Exit 状态码为0) |
失败 | 程序运行出错 |
停止 | 终止任务后的状态 |
查看任务运行状态
在任务视图中,可以查看所有任务的运行状态、设置任务标签,通过任务标签或者任务状态检索任务。
也可以在项目的详情页查看该项目下的所有任务。
查看任务运行结果
在任务列表点击 查看 按钮,进入该任务的详情界面,查看任务运行结果、资源利用率、代码快照、output等。
1. 任务日志
在运行结果下,您可以查看任务的参数设置、引用的模型、任务名称、任务运行时间、任务日志等信息。
说明:日志只保留30天(从任务结束算起)。
2. 资源监控
可查看当前任务的资源使用情况,资源包括CPU、GPU和内存等。
说明:
- 对于历史任务需要自行在右上角选择时间段
- 只保留30天的记录
- GPU利用率可能是多卡的平均(假如你申请了多个GPU);要查看每个GPU的明细,需要点击左上角的
TaskLevelMetrics
3. 代码快照
每次提交运行任务时,系统版本控制功能会自动将当前项目下的代码同步保存为该训练任务的代码,您可以在代码快照
下查看、下载。
系统使用git进行控制,会和你代码中的git(假如有)起冲突。在上传代码前,您需要先把本地的.git删除。
4. Output
训练任务的输出文件可以被保存在output下,进而在网页端查看。。
提示:(1)output目录有不能跨任务共享的弊端,一般用于存放一次性的内容;(2)将output转化为模型或数据集能一定程度缓解上述问题,但有诸多限制,不建议使用。